基于大数据技术的测量平台具有哪些功能
基于大数据技术的测量平台具有以下功能:
分组流量采集:为支持网络测量、网络管理、网络安全监控提供网络流量原始数据,并为下一代互联网核心网关键技术和运行管理技术研发提供网络关键点的原始流量测量与分析数据,国家工程实验室在CERNET2上部署了一套分组流量采集平台。它针对大规模试验网部署在核心节点核心路由器的万兆接口,拥有8条10Gbit/s主干链路分组流量采集与分析能力,能支持网络运行中的实时网络流量采集与分析,并可存储累积6小时长度的全报文和24小时的分组头数据。
Netflow流采集:为了给核心网技术的创新研究和网络态势评估提供基础运行数据及网络试验环境,国家工程实验室依托CNGI-CERNET2大规模试验网络部署的Netflow基础设施,搭建了一套Netflow流采集平台。平台能支撑网络研究人员从全网络角度观察和分析网络行为,挖掘网络发展与演进的规律,同时可为网络优化和新型网络体系结构研究提供网络流量采样数据。Netflow流采集平台可支持大规模试验网25个核心节点的Netflow流数据的采集、存储与分析,可连续存储12个月以上的数据,可支持未来持续不间断的存储容量扩充与分析能力升级。
数据分发:数据分发层的主要功能是将数据传送到数据处理层或直接进入存储层,同时能解耦数据采集层和数据处理层。这样做的优点明显,当出现新的采集工具或新的计算框架时,只需要关注它们与中间消息队列的接口即可,消息队列的另一端可以不必改动,降低升级带来的开销。另外由于我们的平台有多个数据消费者(实时分析、标准数据集制作),为此引入消息队列希望能做到一次采集多次读取。这种选择的一个缺点是,引入新的一层增加系统复杂性,同时如果消息队列选取不合适将会造成两头瓶颈。因此我们在数据收集层的解决方案必须要求性能高效可靠。
数据处理:数据处理层是系统的核心部分,主要包括Storm流式处理,Hadoop离线处理以及数据脱敏处理。Storm主要负责实施流量监控,如镜像流量的统计分析,Hadoop主要负责分析Netflow数据,以及用户对历史流量或流数据的查询。所有分析的数据结果存储在数据存储层。由于Storm和Hadoop要分析的原始流量数据都来自数据采集设备,为了尽量保证Data Locality计算,减少数据复制带来的额外存储开销,我们将Storm和Hadoop混合部署在同一个集群中。脱敏模块负责从数据分发层获取数据,并将数据中的敏感信息(如IP)通过算法抹去,保证用户隐私不会被泄露。
数据存储:原始数据包括镜像流量和流数据以及它们匿名化之后的数据。对于镜像流量数据我们并不能进行7×24小时的无止境存储,大部分数据在实时分析之后被遗弃,只有特定采集计划时间段内的流量数据才会被保存。流数据相较原始流量数据要小很多,我们将所有的流数据持续存储以供历史查询。原始数据对网络运行和研究都有非常重要的价值,因此为了保证数据可靠,我们将原始数据存储在HDFS上。